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突 发 传染 痪 情境 下 社会 化 问答 平台 用 户 角 色 形成 及 转变 ， 


以 知 乎 平台 为 例 


目 陈 苗 苗 。 安 璐 ” 
' 武汉 大 学 信息 管理 学 院 ”武汉 430072 “武汉 大 学 信息 资源 研究 中 心 ”武汉 430072 
摘 要 : [目的 /意义 ] 探 完 突 发 传染 病情 境 下 问答 平台 用 户 角 色 分 类 方法 、 角 色 形 成 关键 因素 及 转变 特点 和 差异 。[ 方 法 / 


过 程 ] 收 集 间 答 平台 Covid-19 疫情 数据 相关 数据 共计 702 927 条 ,从 参与 程度 和 价值 维度 识别 用 户 角色 ,基于 信息 
人 因子 、 信 息 因子 和 信息 环境 因子 识别 社区 用 户 角色 形成 的 影响 因素 ,结合 多 分 类 模型 和 SHapley Additive exPla- 
nations (SHAP) 模型 分 析 影 响 不 同 角色 形成 的 关键 因素 ,利用 FP-growth 关联 规则 算法 挖 气 不 同 角 色 转 变 下 的 行 
为 模式 和 主题 特点 。 [ 结果 /结论 ] 研究 结果 表明 用 户 倾 向 于 维持 角色 不 变 且 转 变 方 向 以 积极 型 和 潜水 型 为 主 , 信 
息 量 是 不 同 角色 形成 的 关键 因素 ,不 同 转变 阶段 的 用 户 角色 转变 特征 变化 程度 及 所 有 转变 阶段 的 用 户 角色 转变 


行为 具有 显著 差异 。 
词 : 用 户 角色 知 乎 问答 平台 
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角色 转变 


影响 因素 Covid-19 ” 突 发 传染 病 


补 康 ,也 让 社交 媒体 平台 得 到 了 空前 的 关注 与 利用 ， 
于 社交 媒体 等 互联 网 工具 进行 全 
面 的 信息 搜索 与 及 时 的 信息 沟通 ,但 突 发 公共 卫生 事 
件 欧 不 确定 性 常常 引起 公众 恐慌 与 焦虑 ,进而 使 其 
向 疆 线 问答 平台 寻求 帮助 和 信息 满足 。 面 对 疫情 , 习 
近 角 总 书记 强调 “要 把 控 好 整体 与 论 ,努力 营造 良好 与 
论 环境 。 要 加 强 网 络 媒体 管控 ,推动 落实 主体 责任 \ 主 
管 责 任 监管 责任 ,对 借 机 造谣 滋事 的 ,要 依法 打击 处 
理 。”" 。 在 此 背景 下 ,用 户 成 为 社会 与 论 参 与 的 重要 
主体 ,不 论 是 社区 管理 者 还 是 政府 部 门 都 应 加 强 对 突 
发 事件 情境 下 用 户 的 了 解 ,包括 其 扮演 的 角色 、 行 为 特 


答 以 达到 满足 自己 的 信息 需求 或 者 信息 交流 的 目的 。 
但 现 有 的 大 多 数 关 于 用 户 角 色 的 研究 主要 以 微 博 、 推 
特等 社交 平台 的 社区 为 主 ,不 同 的 平台 因 其 设计 模式 、 
定位 等 方面 的 不 同 ,在 用 户 角色 ,行为 特征 及 具体 的 研 
究 方案 设计 上 有 所 差异 ,因此 ,对 知 乎 平台 在 新 冠 肺炎 
疫情 场景 下 的 用 户 群体 进行 分 析 , 也 可 以 补充 相关 的 
研究 。 

针对 虚拟 社区 用 户 角色 的 研究 ,主要 集中 在 从 用 
户 行为 或 用 户 网 络 结构 进行 用 户 角 色 识 别 和 分 类 
上 中 ,归纳 总 结社 区 用 户 的 行为 模式 ,包括 参与 行为 、 
互动 行为 等 ,发 现 了 一 些 经 典 的 角色 ,如 潜水 者 、 贡 献 
者 等 ,而 由 于 社会 化 问答 社区 提问 和 回答 行为 的 特别 
性 ,其 用 户 角色 通常 分 为 潜水 者 .提问 者 和 回答 者 ， 
贡献 程度 依次 递增 ,也 因此 吸引 了 学 者 们 研究 用 户 角 


点 和 转变 差异 等 ,这 将 帮助 有 关 部 门 制订 针对 性 的 用 
户 政策 ,促进 良好 的 信息 交流 环境 。 


色 变 化 动因 ,研究 方法 则 主要 使 用 问卷 调查 和 访谈 法 。 
总 体 上 而 言 ,对 虚拟 社区 用 户 角色 的 研究 倾向 于 静态 


知 乎 平台 是 社会 化 问答 平台 的 一 种 ,也 是 当前 国 
内 最 大 的 知识 问答 平台 ,2021 年 月 活路 用户 高 达 1 亿 
人 次 ,在 该 平台 中 ,用 户 可 以 浏览 .搜索 .关注 、 提 问 、 


孔 


层面 的 用 户 角色 识别 和 分 类 ;其 次 ,社会 化 问答 平台 的 
角色 细 分 通常 划分 为 提问 者 和 回答 者 ,未 能 充分 反映 
社会 化 问答 平台 的 用 户 行为 模式 ;最 后 ,学 者 们 主要 关 
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以 知 乎 平台 为 例 [J]. RE ;2022, dy 


注 角 色 演 变动 因 , 侠 少 探究 社区 用 户 角色 形成 的 关键 
要 素 。 基 于 此 ,本 文 的 研究 问题 在 于 如 何 从 用 户 行为 
模式 特点 识别 社区 用 户 角色 ?对 于 各 类 用 户 角 色 而 
言 ,其 角色 形成 的 关键 要 素 是 什么 ?各 类 用 户 角 色 发 
生 转 变 的 主要 行为 和 问答 的 主题 特点 是 什么 ?本 研究 
以 新 型 冠状 病毒 (英文 简称 为 Covid-19 ) 疫情 为 例 , 收 
集 知 乎 问答 平台 新 型 冠状 病毒 话题 下 问答 数据 和 用 户 
数据 累计 702 927 条 ,从 问答 行为 和 问答 质量 重新 划 
分 .解释 社会 化 问答 平台 用 户 角 色 ,结合 信息 生态 理论 
和 知 乎 平台 特点 ,识别 社区 用 户 角 色 形 成 的 影响 因素 ， 
并 利用 SHAP 模型 探究 每 种 因素 对 不 同 用 户 角 色 形 成 
的 影响 ,最 后 使 用 关联 规则 方法 分 析 基 于 信息 人 因子 
和 信息 因子 及 主题 的 用 户 角 色 转 变 规 律 ,揭示 突 发 公 
共和 民生 事件 情境 下 用 户 角色 演化 行为 和 问答 主题 的 


2 文献 回顾 与 理论 基础 

2 人 虚拟 社区 用 户 角色 研究 

< 十 虚拟 社区 用 户 角色 研究 主要 围绕 社交 网 络 结构 特 
用 户 行为 特征 对 用 户 角色 进行 识别 和 分 类 。 前 者 
将 册 户 视 为 交互 行为 网 络 中 的 一 员 , 其 交互 节点 的 网 
乡 咖 扑 结构 如 度 中 心 度 、 紧 密度 中 心 度 等 决定 了 用 户 
箭 名 ,一 般 划分 为 信息 生成 者 .信息 驱动 者 和 信息 桥接 
者 写 , 也 有 的 根据 入 度 和 出 度 的 情况 将 问答 平台 用 户 
角 笑 划 分 为 学 习 成 长 型 .乐于 助人 型 .善于 思考 型 点 
默 学 习 型 和 偏好 不 定型 中 。 后 者 的 角色 识别 通常 与 用 
户 做 与 社区 的 行为 相关 ,如 早期 ] Hagel 等 按照 参与 
程 帮 将 社区 用 户 角色 定性 地 划分 为 浏览 者 ,潜水 者 、 贡 
献 者 和 购买 者 ,在 后 续 研究 中 ,多 使 用 更 加 科学 的 方 


识 搜 寻 者 向 知识 贡献 者 转变 的 内 在 因素 ,G. Zeng 
等 发 现 潜 水 者 向 知识 贡献 者 转变 的 关键 是 自我 效能 、 
用 户 信任 共同 愿景 和 社区 忠诚 度 等 ” 。 
2.2 信息 生态 相关 理论 

信息 生态 学 引入 自然 生态 的 概念 ,从 生态 学 视角 
探究 与 信息 系统 .信息 自 组 织 等 相关 的 问题 ,是 一 门 研 
究 信 息 规律 的 科学 “-” ,强调 信息 生态 因子 间 的 相互 
和 谐 。1999 年 B. A. Nardi 等 在 Information ecologies: 
using technology with pear 一 书 中 率先 提出 信息 系统 的 
概念 并 认为 信息 生态 是 "由 人 、 实 践 、 价 值 和 技术 在 特 
定 环境 中 所 组 成 的 系统 ”" ,将 人 、 实 践 、 价 值 和 技术 
称 为 信息 生态 因子 。 但 学 者 们 对 信息 生态 因子 有 不 同 
的 见解 ,逐渐 形成 了 二 要 素 理论 (信息 人 和 信息 生态 环 
境 ) ”三 要 素 理论 ( 信息、 信息 人 和 信息 环境 ) ” 和 
四 要 素 理论 ( 信息、 信息 人 、 信 息 技 术 和 信息 环境 ) ” 
三 种 学 说 。 信 息 、 信 息 人 和 信息 环境 这 三 个 要 素 被 认 
为 是 信息 生态 系统 中 最 为 核心 的 要 素 ,信息 技术 是 从 
信息 环境 中 制 离 出 来 的 ,考虑 到 所 有 进入 社区 的 用 户 
在 信息 技术 的 接触 上 没有 差别 ,在 本 文中 主要 应 用 三 
因素 理论 构建 社区 用 户 角色 形成 的 影响 要 素 。 
2.3 生命 周期 理论 

在 突 发 事件 生命 周期 的 研究 中 ,经 典 理 论 包 括 S. 
Fink 提出 的 潜伏 期 .暴发 期 延续 期 和 痊愈 期 四 阶段 模 
型 ”和 BT，Burkholder 等 提出 的 事前 、 事 中 和 事后 
紧急 事件 管理 三 阶段 模型 ” ,以 这 些 理论 为 基础 , 安 
璐 等 通过 划分 生命 周期 比较 各 突 发 事件 严重 性 指标 在 
不 同 生 命 阶 段 的 区 别 , 并 构建 了 预警 机 制 ”。 刘 冰 等 
依据 S$，Fink 的 生命 周期 理论 构建 重大 突 发 公共 卫生 
事件 风险 研判 与 决策 模型 ” 。 姜 金贵 等 结合 主题 和 


法 如 统计 分 析 、 聚 类 方法 识别 用 户 角 色 ,包括 意见 领 
袖 专家 等 拉 ,如 本 Villodre 从 社交 媒体 和 应 急 管 理 的 
视角 ,根据 用 户 发 布 推 文 的 数量 重新 定义 了 影响 者 、 传 
播 者 和 普通 用 户 *。 

近年 来 ,部 分 研究 开始 关注 角色 转变 。 一 方面 发 
现 角 色 转 移 方式 ,如 本 Preece 等 提出 用 户 通 过 线性 或 
非 线 性 的 方式 从 一 个 角色 转移 到 另 一 个 角色 ,但 是 
缺乏 实验 支持 ;C.Fu 提出 用 时 间 感 知 角色 模型 来 有 
效 跟踪 用 户 角 色 的 演变 "" ,将 用 户 角 色 简 单 抽象 为 提 
问 者 和 回答 者 并 主要 关注 模型 构建 ;A，Bartal 等 基于 
动态 网 络 提出 时 间 角 色 归 属 频 率 模型 ,识别 出 了 有 影 
响 力 的 成 员 "… 。 另 一 方面 ,关注 角色 变化 的 动因 ,万 
其 是 单一 角色 转变 的 动因 , 主要 通过 问卷 调研 的 方式 
来 挖掘 ,如 赵 欣 等 发 现 专业 知识 与 互惠 规范 是 导致 知 


情绪 走向 将 生命 周期 划分 为 形成 期 高 潮 期 波动 期 和 
消散 期 ” ,在 一 些 突 发 事件 中 ,与 情 生命 周期 可 能 会 
以 单 峰 型 . 双 峰 型 及 多 峰 型 多 种 方式 演进 。 在 本 研 
究 中 , 拟 根 据 突 发 公共 卫生 事件 的 特点 ,将 整个 事件 的 
演化 阶段 划分 为 潜伏 期 .暴发 期 \ 第 一 次 衰退 阶段 \ 波 
动 期 .第 二 次 衰退 阶段 和 平息 阶段 ,其 中 ,波动 期 是 指 
事件 发 展 到 一 定 高 峰 后 ,会 经 历 一 段 时 间 的 沉寂 ,而 随 
着 新 信息 的 刺激 ,又 出 现 新 高 潮 并 且 呈 现 波峰 和 波 从 
交替 摆动 的 形态 。 

综 上 所 述 ,在 用 户 角 色 研 究 上 ,已 有 研究 主要 集中 
于 角色 识别 分 类 的 静态 分 析 ,而 角色 转变 研究 仅 关 注 
某 一 类 角色 转变 ,如 知识 寻求 者 向 知识 贡献 者 的 转变 ， 
缺乏 对 角色 形成 的 关键 因素 分 析 以 及 从 整体 的 角度 考 
虑 全 部 角色 转变 的 动态 分 析 和 差异 分 析 ,也 较 少 关注 
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问答 平台 上 的 角色 情况 ,而 不 同 社交 媒体 平台 的 用 户 
角色 及 行为 特点 是 具有 一 定 差异 的 。 因 此 ,本 文 拟 针 
对 问答 平台 ,识别 适用 于 问答 平台 的 用 户 角色 ,并 基于 
信息 生态 理论 和 生命 周期 理论 分 析 角色 形成 的 关键 因 
素 及 不 同 角色 转变 的 动态 特点 和 差异 。 
3 研究 方法 
3.1 ”数据 收集 与 预 处 理 

本 文 收集 知 乎 问答 平台 “新 型 冠状 病毒 "话题 下 
2019 年 12 月 30 日 -2020 年 5 月 31 日 所 有 问题 及 回 
答 ,经 过 去 重 后 累计 获取 相关 问题 .回答 及 文章 共计 
466 274 条 ,其 中 问题 15, 401 条 、 文 章 976 条 回答 
449 897 条 ,累计 涉及 236 653 名 实名 用 户 和 42 063 名 
区 各 用 户 ,根据 用 户 id 进一步 收集 了 这 236 653 名 用 
户 价 详 细 信 息 ,获得 初始 的 问答 及 用 户 数 据 共计 
70Z927 条 。 然 后 人 工 去 除 不 相关 问题 及 回答 .文章 以 
及 记 注 销 用 户 和 匿名 用 户 的 提问 及 回答 数据 ,最 终 得 


到 其 于 新 型 冠状 病毒 话题 下 的 有 效 提问 和 回答 数据 共 
讨 497 247 条 ,涉及 236 304 名 用 户 。 

GD 问答 平台 用 户 角 色 分 类 

在 问答 平台 中 ,用 户 的 提问 和 回答 行为 被 认为 是 
最 区 价值 的 部 分 ,本 文 借鉴 J，Hagel 等 从 参与 程度 和 
价 信 两 个 角度 定性 地 划分 社区 用 户 角色 的 思想 ' ,将 
间 答 平台 用 户 角色 重新 解释 和 划分 为 潜水 型 积极 型 、 
喜 弱 型 和 知识 型 ,试图 从 量化 的 角度 识别 适用 于 问答 
平 必 的 用 户 角色 类 别 。 其 中 ,洪水 型 对 应 于 J，Hagel 
等 所 提出 的 潜水 者 ,该 角色 对 社区 所 贡献 的 信息 很 少 ; 
积极 型 对 应 于 其 所 提出 的 贡献 者 ,通常 用 户 十 分 活跃 ; 
需求 型 和 知识 型 对 应 于 其 所 提出 的 购买 者 ,并 根据 问 
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答 平台 的 特点 细 化 为 需求 型 和 知识 型 。 不 同 于 Hagel 
等 设 定 参 与 程度 和 价值 维度 仅 与 用 户 行为 相关 ,在 本 
文中 ,参与 程度 是 指 各 个 生命 周期 内 用 户 提问 和 回答 
的 频率 ,而 价值 则 是 指 各 个 生命 周期 内 用 户 提问 和 回 
答 的 质量 。 

问答 平台 中 用 户 的 答案 质量 常 使 用 获 赞 数 衡 
量 ” ,在 危机 情境 下 ,也 有 部 分 学 者 使 用 获 赞 数 代表 
对 信息 的 认可 程度 或 者 采纳 程度 。 由 于 知 乎 平台 
无 法 获取 关于 问题 回答 的 “喜欢 “收藏 "这 两 个 指标 ， 
因此 ,本 文采 用 获 赞 数 来 衡量 答案 质量 。 关 于 问题 质 
量 的 研究 较为 匮乏 , 李 胜 利 等 根据 CSDN 和 Stack Over- 
flow 两 个 社区 的 特点 以 问题 得 分 和 问题 得 分 分 布 情况 
评估 问题 的 质量 ,类 似 地 ,根据 知 乎 平台 特点 ,可 使 
用 问题 的 获 赞 数量 .问题 关注 数量 和 问题 浏览 数量 来 
衡量 问题 的 质量 ,问题 的 获 赞 数量 表示 对 问题 的 认可 
程度 ,问题 关注 数量 表示 问题 的 代表 程度 , 即 代 表 具 有 
相似 问题 需求 的 人 的 程度 ,问题 浏览 数量 代表 着 问题 
的 吸引 力 ,换言之 ,一 个 高 质量 的 问题 应 能 获得 社区 其 
他 用 户 的 认可 、 代 表 大 多 数 人 的 需求 并 吸引 更 多 的 注 
意 力 。 因 此 ,在 用 户 角 色 分 类 价值 维度 上 ,用 户 的 答案 
质量 的 评估 计算 如 公式 (1) 所 示 ,Answer,,i, 表 示 用 户 所 
有 回答 的 数量 ,like; 表示 用 户 第 :个 回答 的 获 赞 数量 : 
De Jike, 


Answer cn 


oe 


公式 (1) 


用 户 问 题 质量 的 评估 计算 如 公式 (2) 所 示 , Ques- 
tionwwm 表 示 用 户 所 有 提问 的 数量 ,like; 表示 用 户 第 i 个 
问题 被 认为 是 好 问题 的 数量 ,follow, 表示 用 户 第 i 个 问 
题 被 关注 的 数量 ,browse, 表示 用 户 第 i 个 问题 被 浏览 
的 数量 ,wi w; ws 分 别 为 这 三 个 指标 的 权重 : 


Answer,,, io = 


Question a, 一 


本 文 组 合 烂 权 法 和 变异 系数 法 对 变量 权重 赋值 ， 


Di wi * like, + w, * follow, + ws * browse, 公式 (2) 
Question,,,, 
阶段 里 的 用 户 , 知 乎 问答 平台 用 户 角 色 分 类 划分 原则 
如 下 : 


前 者 依据 指标 的 变异 程度 反映 其 信息 量 的 大 小 来 确定 
权重 ,后 者 通过 衡量 指标 观测 值 变 动 程度 确定 权重 ,二 
者 的 结合 可 以 使 赋 权 结果 更 加 准确 。 最 终 用 于 计算 问 


(1) 潜 水 型 用 户 。 当 用 户 仅 提问 时 , Question,,s, < 


题 质量 的 组 合 权 重 如 公式 (3) 所 示 ,a 表示 全 权 法 占 组 
合 权 重 的 比例 ,下 sw 表示 由 炉 权 法 计算 得 到 的 第 j 个 指 
标的 权重 ;1 - a 表示 变异 系数 法 占 组 合 权重 的 比例 ， 
Wy 表示 由 变异 系数 法 得 到 的 第 j 个 指标 的 权重 。 通 
常 a 系数 取 值 为 0.5. 


w= * Wen + (1 


j=1,2,3 
公式 (3) 
根据 用 户 的 两 种 行为 和 质量 ,针对 每 一 生命 周期 


-a) Lo 


=AVG( 1 Question,y) 且 Question,,, < = AVG( Zi 
Question,,) , 即 用 户 的 提问 质量 和 提问 数量 均 低 于 均 
值 的 时 候 , 用 户 为 潜水 型 用 户 ,n 表示 有 提问 行为 的 用 
户 数量 ;或 者 当 用 户 仪 回答 时 ,Answer,i, < =AVG( 7 
Answer ,i )& Answer,,,, < =AVG( 7 Answer,,,,, ) , 即 用 
户 的 回答 质量 和 回答 数量 均 低 于 均值 的 时 候 ,用 户 亦 为 
潜水 型 用 户 ,m 表示 有 回答 行为 的 用 户 数 量 。 本 文 结合 
发 帖 频 率 和 发 帖 质 量 定义 潜水 型 用 户 为 不 积极 参与 社 
区 且 用 户 发 帖 价值 较 低 的 群体 ,在 危机 应 对 期 间 , 这 类 
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以 知 乎 平台 为 例 [J 地 piv 人 人 期刊 


用 户 参与 了 社区 但 却 无 法 对 社区 做 出 较 大 的 贡献 。 

(2) 积 极 型 用 户 。 当 用 户 仅 提 问 时 , Questioniww 
< =AVG( Fi Question,,w) 上 且 Question,s, > AVG( Zi 
Question,,, ) , 即 用 户 提 问 质量 低 于 均值 且 提 问 频率 高 
于 均值 的 时 候 , 用 户 为 积极 型 用 户 ;或 者 当 用 户 仅 回 答 
时 ,Answer < =AVG( FY Answer,y ) & Answer 
AVG( 7 Answer,,,,,) , 即 用 户 回 答 质 量 低 于 均值 且 回 答 
频率 高 于 均值 的 时 候 , 用 户 亦 为 积极 型 用 户 , 其 中 n 和 
m 的 定义 与 前 文 一 致 。 积 极 型 用 户 具有 较 高 的 活跃 水 
平 ,但 是 他 们 所 产 出 的 价值 并 不 高 ,这 类 用 户 往 往 具 有 
较 高 的 社交 需求 en 。 

(3 ) 需 求 型 用 户 和 知识 型 用 户 。 需 求 型 用 户 具 有 
较 高 的 信息 需求 , 即 提问 质量 高 。 知 识 型 用 户 产生 具 
人 葆 俐 值 的 信息 , 即 回答 质量 高 。 需 求 型 用 户 和 知识 型 

在 社区 中 的 共性 是 其 问答 质量 较 高 ,但 在 社区 平 
合 蚀 ,有 的 用 户 既 产生 提问 行为 又 产生 回答 行为 ,为 了 

该 用 户 偏 向 需求 型 还 是 知识 型 ,在 得 到 各 个 生命 


> 


guality count 


国 三 风 
Ea 


化 得 到 Question.,, 、Answer.,,,、Question, ee Answer. 
I A A 响 。 借 鉴 信 
论 中 对 信息 量 的 描述 ” , 即 事件 发 生 概 率 与 信息 量 
呈现 正 相 关 , 其 事件 i 的 信息 量 计算 公 式 为 H= - 
ET 本 文 区 分 需求 型 用 户 和 知 

识 型 用 户 的 计算 公式 如 (4) 所 示 。 需 要 注意 的 是 标准 


quality » 


三 
尿 Z Pn 


息 YY 


mr 


化 后 的 数量 和 质量 相 乘 不 再 具有 原始 意义 ,因为 已 消 
除 量 纲 影响 。 
1 
Ranand = — log, 
”Ouesiion * Question, ul El 
1 

Ri 

LSeTrole = 知识 型 用 户 Rowedee 三 Ru 

LSe7 ole = 需求 型 用 户 Regge < Rana 

公式 (4) 


3.3 ”社区 用 户 角色 形成 的 影响 因素 识别 
根据 信息 生态 理论 ,本文 从 信息 人 因子 信息 


周期 阶段 所 有 用 户 提问 数量 、 回 答 数 量 .提问 质量 和 回 和 信息 环 A 
短 胡 量 后 ,使 用 最 大 最 小 标准 化 方法 将 数据 进行 标准 | 如 表 1 所 示 : 
CO 表 1 信息 生态 视角 下 的 影响 因素 


et 


《村 因子 信息 生态 因子 表征 特征 值 
(人 因子 ”自然 属性 性别 男 / 女 /未 填写 
CN 也 域 北京 /上海 / 广 州 . 
~ 所 在 行业 电子 商务 /公共 服务 /互联 网 . .…. . 
a 创作 等 级 [0-10] 
>< j 户 类 别 个 人 /组 织 
(SS 是 否认 证 是 / 否 
CC 是 否 为 优秀 回答 者 是 / 否 
= 粉丝 数 用 户 的 粉丝 数 
< 关注 数 用 户 的 关注 数 
多 特征 属性 ”影响 力 粉丝 数 与 (粉丝 数 + 关注 数 +1) 的 比值 
绝对 角色 提问 者 /回答 者 /既是 提问 者 又 是 回答 者 
上 一 阶段 用 户 角 色 潜水 型 /积极 型 /知识 型 /需求 型 
兴趣 程度 用 户 话题 分 布 同 该 环境 下 的 话题 相似 性 
信息 因子 。 文本 属性 ”提问 标题 平均 长 度 用 户 提问 标题 总 长 度 与 提问 数量 的 比值 
提问 描述 平均 长 度 用 户 提问 描述 总 长 度 与 提问 数量 的 比值 
回答 文本 平均 长 度 用 户 回答 文本 总 长 度 与 回答 数量 的 比值 
文本 信息 量 问答 文本 中 所 有 词 的 TF-IDF 之 和 
情感 属性 ”提问 标题 情感 倾向 值 提问 标题 文本 的 情感 积极 倾向 值 的 和 与 提问 数量 的 比值 
提问 描述 情感 倾向 值 提问 描述 文本 的 情感 积极 倾向 值 的 和 与 提问 数量 的 比值 
可 管 文本 情感 倾向 值 回答 描述 文本 的 情感 积极 倾向 值 的 和 与 回答 数量 的 比值 
时 间 属 性 ”平均 问答 时 间 间 隔 用 户 所 有 回答 与 问题 的 时 间 间 隔 同 所 有 提问 数量 和 回答 数量 的 比值 
上 时 间 分 布 分 为 深夜 (00:00 - 06:00] 清晨 (6:00 -8:30] 、 上 午 (8:30 -12:00] .中 午 (12:00 -14:00] .下 午 
(14:00 -18:00] .晚上 (18:00 -24:00] ,以 是 / 否 在 该 时 间 段 有 文本 发 布 表示 
主题 属性 主题 分 布 单个 用 户 所 有 文本 信息 主题 在 所 有 用 户 全 部 文本 信息 上 的 主题 分 布 ,以 是 / 否 包含 某 个 话题 表示 
主题 丰富 性 单个 用 户 所 有 文本 包含 的 主题 总 数 
信息 环境 因子 “环境 属性 。 平台 介入 度 问题 回答 折 秋 数量 和 ( 问题 回答 数量 +1) 的 比值 
信息 讨论 度 问题 回答 数量 
回答 评论 数量 
演化 阶段 潜伏 期 .暴发 期 .第 一 次 衰退 阶段 波动 期 .第 二 次 衰退 阶段 .平息 阶段 
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3.3.1 信息 人 因子 
言 息 人 因子 通常 使 用 自然 属性 表征 , 即 用 户 的 年 


提问 又 回答 , 则 既是 提问 者 又 是 回答 者 。 上 一 阶段 用 
户 角 色 为 用 户 在 上 一 生命 阶段 的 角色 ,由 于 用 户 并 不 


下 


龄 ,性别 等 社交 媒体 自然 属性 ” ,本 文中 还 提出 信息 
人 因子 包含 特征 属性 , 即 为 用 户 的 非 自 然 属 性 但 与 用 
户 本 身 相 关 的 属性 。 根 据 知 乎 平台 特点 ,信息 人 自然 
属性 如 表 1 所 示 , 其中, 地域 重新 划分 取 值 36 个 特征 
值 ,包括 中 国 34 个 省 级 行政 区 及 海外 和 其 他 地 域 ;所 
在 行业 使 用 知 乎 提供 的 行业 信息 ,累计 涉及 112 个 特 
征 值 ;创作 等 级 从 0 级 到 10 级 , 共 11 个 特征 值 。 
信息 人 特征 属性 表征 如 表 1 所 示 , 其 中 ,绝对 角色 
为 用 户 在 某 一 阶段 的 提问 行为 和 回答 行为 ,如 果 用 户 
只 提问 , 则 为 提问 者 ;如 果 只 回答 , 则 为 回答 者 ;如 果 有 既 


Interest_degree = JS_divergence (P|i, 


3. 丑 2 信息 因子 
0 加 信息 因子 可 细 化 为 信息 时 效 性 ,信息 有 用 性 等 特 
徒 sa ,考虑 到 信息 因子 描述 信息 的 基本 特点 ,本 文 将 
停 剖 因子 分 为 文本 属性 ,情感 属性 和 时 间 属 性 。 文 本 
Rl 插 除 了 统计 提问 标题 .提问 描述 和 回答 文本 的 平均 
长 鞠 外 ,还 使 用 TF-IDF 计算 用 户 所 有 帖子 的 总 体 信息 
最 , 印 利用 去 除 停 用 词 后 的 用 户 发 布 的 所 有 问答 中 词 
的 CTF-IDF 值 的 加 和 代表 用 户 在 某 一 生命 周期 发 表 的 
所 宾 帖 子 的 信息 量 。 在 用 户 情感 属性 的 计算 上 ,本 文 
借 项 百度 情感 分 析 模型 Senta 中 的 Bi-LSTM 预测 帖子 
恒 且 ” ,首先 对 用 户 所 发 的 帖子 进行 分 句 处 理 , 并 使 
用 可 极 情 感 倾向 概率 作为 文本 的 情感 倾向 值 ,其 计算 
如 次 式 (6) 所 示 , 表示 某 个 用 户 发 布 的 全 部 帖子 的 情 
感 癸 向 值 ,m 表示 用 户 累 计 发 的 提问 或 者 回答 的 帖子 
数量 ,n 表示 提问 帖子 或 者 回答 帖子 的 句子 数量 ,P 


(Sentence; ) 表示 用 户 第 j 个 帖子 的 第 i 句 话 的 积极 情 
感 倾向 。 
31 >; PSenience;) 


公式 (6) 

时 间 属 性 包括 时 间 分 布 和 动态 时 间 分 布 间隔 ,其 

中 时 间 分 布 的 划分 方式 如 表 1 所 示 , 每 个 用 户 在 某 个 

生命 周期 发 布 的 帖子 都 将 离散 地 分 布 在 表 中 的 6 个 时 

间 段 ,并 以 是 /和 否 的 形式 表示 。 关 于 动态 时 间 分 布 间 

隔 ,将 用 户 提 问 行为 视 为 问题 首发 ,因此 时 间 间 隔 为 

0 ,用 户 回 答 行为 时 间 间 隔 为 用 户 回答 时 间 与 其 回答 的 

问题 的 时 间 间 隔 , 最 终 动 态 时 间 间 隔 为 用 户 所 有 回答 

时 间 同 问题 的 时 间 间 隅 和 所 有 回答 数量 和 提问 数量 之 
和 的 比值 。 


a Mn > 
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总 是 存在 于 社区 中 , 故 另 外 设置 两 个 虚拟 角色 :用 户 进 
入 和 用 户 退 出 ,如 果 在 某 一 生命 周期 ,用 户 第 一 次 进入 
该 社区 , 则 其 上 一 阶段 角色 为 用 户 进入 ,如 果 用 户 并 不 
是 第 一 次 进入 该 社区 且 上 一 生命 周期 未 发 过 任何 帖 
子 , 则 上 一 阶段 用 户 角色 为 用 户 退 出 。 用 户 的 兴趣 程 
度 计算 如 公式 (5) 所 示 , 表 示 用 户 所 有 文本 主题 分 布 
概率 与 该 生命 周期 阶段 文本 主题 分 布 概率 的 相似 性 ， 
主题 分 布 概率 由 全 部 用 户 n 在 所 有 主题 分 布 概率 之 和 
的 平均 表示 ,本 文 使 用 JS 散 度 评估 二 者 的 相似 性 ,其 
取 值 范 围 为 [0,1 ] , 值 越 小 表明 用 户 越 感 兴趣 。 


,1p{ ~ 公式 (5) 
主题 属性 包括 主题 分 布 和 主题 丰富 性 。 本 文 使 用 


基于 Bert 的 文本 聚 类 工具 Bertopic 识别 用 户 发 布 信息 
主题 , Bertopic 利用 transformers 和 c-TF-IDF 创建 密集 
的 集群 ,得 到 的 主题 易于 解释 ” 。 主 题 丰富 性 解释 见 
表 1。 

3.3.3 信息 环境 因子 

关于 信息 环境 因子 ,在 社交 媒体 中 其 外 部 环境 考 
虑 了 转发 .评论 等 属性 ”; 。 本 文 的 信息 环境 因子 考虑 
了 知 乎 平台 介入 度 .信息 讨论 度 和 演化 阶段 ,具体 衡量 
见 表 1。 

3.4 用 户 角色 形成 的 影响 因素 分 析 

为 了 探索 用 户 角 色 形 成 的 关键 因素 ,对 表 1 影响 
因素 为 无 序 分 类 变量 的 , 即 地 域 和 所 在 行业 进行 独 热 
编码 处 理 , 将 用 户 的 性 别 ,用户 类 别 .是 否认 证 是否 为 
优秀 回答 者 等 进行 序列 编码 处 理 。 然 后 将 用 户 在 该 阶 
段 的 用 户 角 色 作 为 因 变 量 ,通过 建立 多 分 类 模型 ,识别 
最 佳 的 分 类 器 , 并 将 分 类 器 作为 SHAP (SHapley Addi- 
tive exPlanations ) 输 入 进行 训练 ,并 绘制 不 同 角色 的 特 
征 重要 性 排序 图 。SHAP 是 基于 博弈 论 衡量 模型 的 特 
征 重要 性 ,具有 可 解释 性 ” 。 在 本 文中 ,构建 的 多 分 
类 器 包括 线性 回归 分 类 器 (LR) 和 K 近 邻 分 类 器 
(KNeighborsClassifier) .神经 网 络 分 类 器 (MLPClassifi- 
er) 决策 树 分 类 器 ( DecisionTreeClassifier ) 、 随 机 和 森林 
分 类 器 、LightGBM 分 类 器 (LGBMClassifier ) 、CatBoost 
分 类 器 和 XGCBoost 分 类 器 。 

在 建立 多 分 类 模型 时 ,考虑 到 多 分 类 样本 存在 不 
均衡 问题 ,本 文通 过 过 采样 方法 Borderline-Smote 算法 
对 训练 集 上 的 数据 进行 数据 均衡 操作 ,该 算法 能 够 更 
准确 地 学 习 每 个 类 的 边界 ,从 而 改善 样本 的 类 别 分 
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(C12 66=81; 


Chinayiv 合 候 期 
以 知 乎 平台 为 例 []] 图 书 华 报章 , 加 灌 ,46 


布 ”。 为 识别 最 佳 分 类 器 ,通过 结合 Borderline-Smote 
算法 和 十 折 交 叉 验 证 对 不 同 多 分 类 器 进行 评估 , 即 在 
每 次 评估 中 都 应 用 Borderline-Smote 算法 平衡 训练 集 
上 的 数据 ,并 利用 测试 集 预 测 效果 评估 多 分 类 器 结果 。 
3.5 用户 角色 转变 分 析 

为 了 挖掘 用 户 角 色 转 变 的 规律 ,本 文 计算 角 色 转 
变 的 支持 度 和 置信 和 度 , 以 及 不 同 生命 周期 阶段 转换 期 
间 不 同 用 户 角 色 转 变 的 主要 指标 变化 程度 ,如 公式 
(7) 所 示 ,表示 某 个 转换 阶段 (A 阶段 -B 阶段 ) 用 户 


(0.75 ,1] 划 分 为 非常 感 兴趣 、 很 有 兴趣 .一般 感 兴趣 和 
不 太 感 兴趣 ;采用 Senta 官方 分 类 标准 ,将 各 情感 倾向 
值 按 [0,0.45] 、(0.45,0.55)、[0.55,1] 划 分 为 消极 、 
中 立 和 积极 。 然 后 通过 调节 最 小 支持 度 和 最 小 置信 和 度 
并 基于 支持 度 、 置 信和 度 和 提升 度 找 到 各 角色 转变 条 件 
下 的 最 相关 和 最 有 效 的 关联 规则 ,选择 最 大 提升 度 下 
的 最 大 支持 度 的 规则 作为 最 终 的 关联 规则 ,提升 度 越 
大 说 明 两 者 之 间 越 相关 。 为 了 简化 结果 形式 ,本文 设 
计 了 一 些 表示 规则 ,以 ” 低 影响 力 ,[C( 个 人 1 不 是 优秀 


角色 U1 向 用 户 角色 U2 转变 的 某 一 影响 因素 i 的 变化 
程度 。 其 中 ,U2(i) 为 B 阶段 用 户 角 色 U2 影响 属性 i 
的 均值 ,U1(i) 为 A 阶段 用 户 角 色 U1l 影响 属性 i 的 均 
值 ,为 避免 分 母 为 0, 将 分 母 数值 加 1。 


DegreeChange ,1 2) = U2(7) -~ UL) 


Ul(i)+1 


公式 (7) 


(©O 
此外, 本文 使 用 FP-growth 关联 规则 对 不 同 角色 转 


瑟 玫 件 下 的 信息 人 因子 和 信息 因子 .话题 和 话题 因子 
进行 关联 分 析 , 提 取 其 潜在 联系 ,从 而 发 现 不 同 角 色 转 
变 的 异同 点 。FP-growth 采取 分 治 策略 加 速 了 关联 规 
央 人 所 过 程 "站 ,克服 了 Apriori 算法 效率 低 的 问题 。 

六 在 进行 关联 规则 分 析 前 ,需要 对 数据 进行 类 别处 
入 高 于 平均 值 和 低 于 平均 值 的 二 分 类 法 划分 粉丝 
《> 尖 注 数 ,影响 力 、 提 问 标题 平均 长 度 、 提 问 描述 平均 
坎 度 ,回答 文本 平均 长 度 、 文 本 信息 量 .动态 时 间 分 布 
间隔 这 些 特征 ;采取 四 分 法 将 兴趣 程度 划分 为 4 个 类 
别 3 好 按 值 [0,0. 25 ] 、(0. 25,0.5]、(0.5,0.75 |]、 


回答 者 ) ] "为 例 ,[ ] 表 示 其 含有 的 内 容 可 有 可 无 ,CCA 
1B) 表 示 |A、B| 除 空 集 外 的 所 有 子 集 ,因此 ,该 例子 可 
以 形成 “ 低 影 响 力 ”“ 低 影响 力 、 个 人 ”“ 低 影响 力 \ 不 是 
优秀 回答 者 ”“ 低 影响 力 、 个 人 ,不 是 优秀 回答 者 " 共 4 
种 子规 则 ,如 果 规 则 中 有 减 号 ,表示 不 包含 减 号 后 的 数 
据 集 的 任意 子 集 。 对 于 规则 前 置 项 和 后 置 项 交换 后 的 
文 持 度 .置信 度 和 提升 度 一 致 , 直接 合并 写成 "AIB 的 
形式 。 


4 实验 与 结果 分 析 


4.1 数据 生命 周期 划分 

依据 网 络 信息 空间 传播 特点 ,通过 识别 社交 媒体 
言 息 数量 变化 的 拐点 划分 生命 周期 ,考虑 到 在 该 话题 
下 匿名 用 户 和 已 注销 用 户 发 布 的 帖子 与 该 话题 也 密切 
相关 ,因而 在 划分 生命 周期 时 , 仅 去 除 无 关 数据 ,最 终 
得 到 如 表 2 所 示 的 生命 周期 阶段 ,共计 6 个 阶段 。 


0 表 2 生命 周期 划分 
生命 周期 时 间 区 间 帖子 数量 /个 关键 事件 
潜伏 期 2019. 12. 30 -2020.1.20 268 1 月 20 日 晚 钟南山 医生 确认 新 冠 病毒 具有 “人 传人 "现象 ,进入 暴发 
暴发 期 2020. 1.21 -2020.2.1 50 334 2 月 1 日 武汉 火 神 山 医 院 即 将 建成 ,并 于 2 月 2 日 正式 交付 ,进入 第 一 次 衰退 阶段 
第 一 次 衰退 阶段 2020.2.2 -2020.3.11 117 959 3 月 11 日 ,世界 卫生 组 织 宣布 新 冠 肺炎 疫情 为 全 球 大 流行 ,进入 波动 期 
波动 期 2020.3. 12 -2020.4.4 183 351 4 月 4 日 全 国 哀悼 ;全 球 单 日 新 增 确诊 新 冠 病例 超过 10 万 例 。 进 入 第 二 次 衰退 期 阶段 
第 二 次 衰退 阶段 2020.4.5 -2020.5.3 96 676 5 月 3 日 ,国家 卫 健 委 : 全 国 现 有 确诊 病例 连续 11 天 下 降 ;新 增 无 症状 感染 者 12 例 ,为 通 
报 以 来 最 低 。 进 入 平息 阶段 
平息 阶段 2020.5.3 -2020.5.31 17 224 


4.2 问答 平台 用 户 角色 分 类 和 转变 情况 

根据 3.2 节 对 问答 平台 用 户 角 色 划 分 的 方法 ,我 
们 首先 按照 生命 周期 阶段 识别 出 每 个 阶段 的 用 户 ,最 
终 得 到 所 有 生命 周期 的 用 户 共计 289 259 名 ,潜水 型 用 
户 221 349 名 , 占 比 76.52% ;积极 型 用 户 52 925 名 , 占 
比 18.3% ;知识 型 用 户 14 503 名 , 占 比 5.01% ;需求 型 
用 户 482 名 , 占 比 0.17%。 我 们 统计 了 每 个 生命 周期 
阶段 不 同 角 色 的 性 别 \ 行 业 、 地 域 \. 创 作 等 级 粉丝 数 、 


关注 数 及 影响 力 的 特征 ,发 现 用 户主 要 聚集 在 北京 、 上 
海 和 广东 省 这 类 经 济 发 达 地 区 。 积 极 型 用 户 平 均 粉 丝 
数 稳定 在 2 000 -5 000 之 间 ,其 创作 等 级 .影响 力 伴随 
生命 周期 的 发 展 而 逐步 增加 。 潜 水 型 用 户 在 疫情 发 展 
初期 粉丝 数 在 3 000 左右 ,疫情 中 期 粉丝 数 下 降 至 
1 000 以 下 ,后 期 又 略微 回升 ,其 关注 数 相对 稳定 ,影响 
力 水 平 在 疫情 发 展 中 期 一 直 低 于 0.4。 和 需求 型 用 户 较 


为 特殊 ,疫情 发 展 的 初期 和 后 期 , 知 乎 官方 平台 为 了 促 
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进 讨论 氛围 ,会 自主 提出 问题 ,导致 需求 型 用 户 粉丝 数 
和 关注 数 较 高 ,但 影响 力 水 平 在 0.5 左右 、 创 作 等 级 在 
6 左右 。 知 识 型 用 户 无 论 是 粉丝 数 、 影 响 力 还 是 创作 
等 级 ,在 疫情 各 阶段 基本 上 处 于 最 高 水 平 ,影响 力 水 
在 0.8 左右 ,创作 等 级 在 6.5 以 上 。 另 外 ,在 性 别 
域 和 行业 上 ,知识 型 用 户 信息 较 全 ,但 潜水 型 用 户 在 这 


局 


区 


变 概率 不 同 ,用 户 维持 积极 型 不 变 的 概率 是 49.78% ， 
从 积极 型 转向 潜水 型 的 概率 是 43. 88% ,而 从 积极 型 
转向 需求 型 或 者 知识 型 的 概率 低 很 多 ,其 他 角色 转变 
概率 具体 如 表 3 所 示 。 通 常情 况 下 ,用 户 倾 向 于 维持 
原 有 角色 不 变 ,但 需求 型 用 户 会 以 更 大 的 概率 转向 潜 
水 型 或 者 积极 型 ,潜水 型 和 积极 型 会 以 较 高 的 概率 相 


些 特 征 上 和 缺失 值 最 多 ,各 类 型 用 户 角色 主要 聚集 在 互 


互 转换 ,但 是 积极 型 更 容易 向 潜水 型 转变 ,需求 型 会 以 


联网 临床 医疗 、 高 等 教育 等 行业 ,互联 网 行业 的 用 户 
在 任何 角色 中 始终 占据 一 席 之 地 ,而 疫情 发 展 前 期 临 
床 医疗 行业 的 用 户 也 是 关注 疫情 的 重点 用 户 。 

根据 3.5 节 对 用 户 角色 转变 的 描述 ,各 类 角色 转 
变 的 情况 如 表 3 所 示 , 从 表 3 中 可 以 看 到 不 同 角 色 转 


13.8% 的 概率 向 知识 型 转换 ,但 知识 型 向 需求 型 转换 
的 概率 较 低 , 另 外 如 果 发 生 转 变 用 户 也 会 倾向 于 向 潜 
水 型 或 者 积极 型 转变 ,需求 型 向 各 个 角色 转变 的 概率 
都 较 高。 


表 3 角色 转变 情况 


了 前 项 后 项 支持 度 置信 度 前 项 后 项 支持 度 置信 度 
积极 型 0.189 01 0.497 78 需求 型 积极 型 0. 000 89 0.317 07 
潜水 型 0. 166 63 0.438 83 需求 型 潜水 型 0.000 91 0.325 20 

需求 型 0.000 77 0.002 04 需求 型 需求 型 0.000 61 0.219 51 

知识 型 0.023 29 0.061 35 需求 型 知识 型 0. 000 39 0. 138 21 

积极 型 0. 148 20 0.295 22 知识 型 积极 型 0.033 48 0.289 94 

潜水 型 0.328 30 0.653 98 知识 型 潜水 型 0.033 44 0.289 54 

需求 型 0.000 59 0.001 18 知识 型 需求 型 0.000 61 0.005 32 

知识 型 0.024 91 0.049 62 知识 型 知识 型 0.047 95 0.415 21 


区 恨 据 3.5 节 , 本 文 挖掘 了 不 同 生命 周期 阶段 用 户 
角 芹 发 生 转变 的 特征 变化 。 如 表 4 所 示 , 因 文章 篇 幅 
限制 , 仅 展示 各 阶段 角色 转换 概率 排名 前 二 及 正 负 指 
标 谈 化 程度 最 高 的 前 5 位 。 转 换 概率 表示 该 角色 转换 
数 旱 占 该 转换 阶段 所 有 角色 转换 数 的 比例 。 在 不 同 生 
命 周 期 转变 期 间 ,主要 的 转变 角色 略 有 差异 ,但 潜水 型 
用 铬 维持 角色 不 变 的 概率 最 大 ,每 一 转换 期 间 , 用 户 角 
色 维持 不 变 和 变化 的 主要 变化 指标 及 变化 程度 也 是 不 
同 的 。 以 潜水 型 角色 维持 不 变 为 例 ,前 两 个 转变 时 期 
要 求 用 户 角色 粉丝 数 变化 度 是 前 一 阶段 的 0.68 倍 时 
才能 维持 角色 不 变 ,而 后 续 如 第 二 次 衰退 阶段 到 平息 
阶段 ,用 户 角色 粉丝 数 变 化 度 要 求 为 前 一 阶段 的 1.95 
倍 时 , 才 有 可 能 维持 潜水 型 角色 不 变 。 在 潜伏 期 到 暴 
发 期 阶段 ,知识 型 用 户 维持 不 变 的 要 求 是 其 所 发 布 的 
信息 内 容 的 信息 量变 化 度 是 前 一 阶段 的 0.62 倍 ,时 间 
上 要 在 上 午 或 者 深夜 发 布 ,主题 上 要 更 加 聚焦 。 在 不 
同 转变 阶段 ,角色 发 生 转变 的 要 求 也 不 一 样 , 以 潜水 型 
向 积极 型 转变 为 例 ,从 暴发 期 到 第 一 次 衰退 阶段 ,用 户 
从 潜水 型 向 积极 型 转变 ,意味 着 粉丝 数 变化 度 是 前 一 
阶段 的 1.79 倍 , 且 提 问 描述 平均 长 度 变 化 度 是 前 一 自 
的 3.75 倍 .提问 标题 平均 长 度 变 化 度 是 前 一 阶段 的 


1.55 倍 ,信息 量变 化 度 是 前 一 阶段 的 0.76 倍 等 。 
4.3 用 户 角色 分 类 模型 的 训练 与 评估 

在 影响 因素 主题 分 布 衡量 上 ,由 于 Bertopic 训练 
花费 成 本 较 高 ,在 经 过 5 天 训练 后 得 到 1 584 个 主题 ， 
相当 一 部 分 与 主题 相关 的 文档 数量 仅 在 10 篇 左右 ,为 
了 确保 每 个 主题 都 至 少 有 100 篇 文档 ,结合 主题 相似 
性 矩阵 ,最 终 确 认 主 题 数 为 180 ,并 通过 主题 相似 性 对 
现 有 主题 进行 了 进一步 的 合并 。 

根据 3.4 音节 的 描述 ,使 用 Borderline-Smote 和 十 
折 交 叉 验 证 对 模型 进行 评估 ,模型 评估 采用 精准 率 、 召 
回 率 Fl] 值 的 宏 平 均 结果 及 正确 率 。 从 表 5 中 可 以 看 
到 CatboostClassifier 和 LGBMClassifier 在 多 分 类 上 的 表 
现 都 有 最 优 值 ,但 CatboostClassfier 在 精准 率 、F1l 值 和 
正确 率 上 都 表现 优 于 LGBMClassifier, 故而 在 利用 
SHAP 模型 挖掘 影响 因素 的 时 候 ,使 用 CatBoostClassifi- 
er 作为 其 输入 。 
4.4 社区 用 户 角色 形成 的 影响 因素 分 析 

为 了 探究 不 同 变量 对 于 不 同 用 户 角色 形成 的 具体 
影响 ,绘制 特征 重要 性 排序 图 ( 见 图 1)。 图 1 中 颜色 
深浅 表示 特征 值 的 大 小 ,颜色 越 偏向 于 浅 灰色 ,特征 值 
越 小 ,否则 ,特征 值 越 大 。 
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(12) :68=81, 


以 知 乎 平台 为 例 [J en pv 人 和 期刊 


表 4 各 生命 周期 转换 期 间 不 同 角色 转变 的 指标 变化 情况 (部 分 ) 


| 主要 变化 指标 (括号 内 的 数值 为 变化 程度 ) 
转换 期 间 转换 角色 转换 概率 
正 向 变化 负 向 变化 
潜伏 期 -暴发 期 ”洪水 型 一 潜水 型 ”0.31 ”粉丝 数 (0. 68 ) ; 动态 时 间 分 布 间隔 (0. 64); 性 别 ”回答 评论 数量 ( - 0. 48); 关 注 数 ( -0.4); 晚 上 
(0.31) ;主题 丰富 性 (0.16) ;中 午 (0.15) ( -0.27) ;回答 情感 倾向 值 ( -0.04) ;用 户 类 别 ( - 
0.02) 
知识 型 一 知识 型 ”0.17 ”动态 时 间 分 布 间 隔 (1. 98 ) ;粉丝 数 (1. 08 ) ;信息 量 。” 主题 丰富 度 ( -0.49) ;回答 评论 数量 ( -0.21) ;性 别 
(0.62) ;上 午 (0.47) ;深夜 (0.29) ( -0.09) ;晚上 ( -0.09) ;兴趣 程度 ( -0.04) 
暴发 期 -第 一 次 ”潜水 型 一 积极 型 ”0.19 ”提问 描述 平均 长 度 (3.78) ;粉丝 数 (1.79) ;提问 标题 ”主题 丰富 性 ( -0.14) ;兴趣 程度 ( -0. 14) ;回答 情感 
衰退 阶段 平均 长 度 (1.55) ;关注 数 (0.99) ;信息 量 (0.76) 倾向 值 ( -0.05) 
潜水 型 一 潜水 型 ”0.37 粉丝 数 (0. 68 ) ; 关注 数 (0. 5) ;回答 平均 文本 长 度 ”上 午 ( -0.09) ;深夜 ( -0.04) ;回答 情感 倾向 值 ( - 
(0.26) ;性 别 (0.21) ;影响 力 (0.14) 0.03) ;中 午 ( -0.01) 
第 一 次 衰退 阶段 - 潜水 型 一 积极 型 “0.21 ”提问 描述 平均 长 度 (3. 75 ); 提问 标题 平均 长 度 ”主题 丰富 性 ( -0.11) ;动态 时 间 分 布 间隔 ( -0.11); 
波动 其 (1.22); 粉 丝 数 (0. 88); 信息 量 (0. 69); 关注” 回答 情感 倾向 值 ( -0.04) ;回答 评论 数量 ( -0.01); 
数 (0.68) 兴趣 程度 ( -0.01) 
洪水 型 一 潜水 型 ”0.32 ”关注 数 (0. 各) ;粉丝 数 (0.30) ;性别 (0.17) ;创作 等 ”动态 时 间 分 布 间隔 ( - 0. 08); 回答 评论 数量 
级 (0.12) ;影响 力 (0..08) ( -0.08); 下 午 ( - 0. 03); 回答 情感 倾向 值 
= ( -0.03 ) ; 主题 丰富 性 ( -0.02) 

泪 动 -第 二 次 。 积极 型 积极 型 ”0.23 。 粉丝 数 (1. 12 ) ;关注 数 (0. 34) ;动态 时 间 分 布 间隔 ”提问 描述 平均 长 度 ( - 0. 6) ; 提问 标题 平均 长 度 
CoamR (0.18) ;回答 平均 文本 长 度 (0.10) ;影响 力 (0.09) 。”〈 -0.50) ;问题 回答 数量 ( -0.12) ; 主题 丰富 性 ( - 
(OO 0.06) ;提问 标题 情感 倾向 值 ( -0. 03) 

下 ~ 潜水 型 一 潜水 型 ”0.31 。 粉丝 数 (0. 89 ) ;关注 数 (0. 40 ) ;动态 时 间 分 布 间隔 ”回答 情感 倾向 值 ( -0.03) ;晚上 ( - 0. 03 ) ;回答 平均 
©O (0.13) ;性 别 (0.12) ;影响 力 (0.08) 文本 长 度 ( -0.01) 

a 积极 型 一 潜水 型 ”0.31 ”关注 数 (0.36) ;主题 丰富 性 (0.19) ;动态 时 间 分 布 间 ”提问 描述 平均 长 度 ( -0.91) ;提问 标题 平均 长 度 ( - 
了 息 阶 段 隔 (0. 16) ;粉丝 数 (0.14) ;影响 力 (0. 08) 0.78) ;信息 量 ( - 0.34) ;问题 回答 数量 ( -0.25) ;下 
© 午 ( -0.15) 

af) 潜水 型 一 潜水 型 ”0.34 ”粉丝 数 (1.95) ;关注 数 (0. 57 ) ;性 别 (0. 15 ) ;影响 力 ”回答 平均 文本 长 度 ( -0.07) ;主题 丰富 性 ( -0.05); 
CN (0.11) ;创作 等 级 (0. 1) 回答 情感 倾向 值 ( -0.02) ;下 午 ( -0.02) 


NN 表 5 ”用户 角色 多 分 类 器 评估 结果 
> 模型 精准 率 召回 率 F1 值 正确 率 
>< LR 0.594 2 0.320 1 0.323 0 0.550 8 
5G KNeighborsClassifier 0.541 0 0.4626 0.479 0 0.640 0 
全 MLPClassifier 0.789 6 0.651 0 0.660 3 0.8746 
全 DecisionTreeClassifier 0.823 3 0.803 5 0.807 6 0.914 7 
© RandomForestClassifier 0.771 1 0.854 4 0.803 1 0.913 5 
LGBMClassifier 0.8737 0.881 8 0.869 4 0.957 7 
CatBoostClassifier 0.881 3 0.868 9 0.872 9 0.966 2 
XGBClassifier 0.8733 0.883 4 0.870 6 0.957 3 


从 图 1 中 可 以 得 到 以 下 结论 : 

(1) 对 于 潜水 型 用 户 而 言 ,文本 信息 量 越 低 、 回 答 
文本 平均 长 度 越 长 .提问 标题 平均 长 度 越 短 .提问 标题 
情感 倾向 值 越 低 动态 分 布 时 间 间 隔 越 高 .回答 情感 倾 
向 值 越 高、 上 一 阶段 用 户 角色 为 用 户 进入 或 潜水 型 粉 
丝 数 越 低 .行业 和 地 域 不 确定 回答 评论 数量 越 低 . 问 
题 回答 数量 越 低 .主题 丰富 性 越 低 演化 阶段 越 远 时 ， 
用 户 则 越 有 可 能 是 潜水 型 用 户 。 

(2) 对 于 积极 型 用 户 而 言 ,文本 信息 量 越 高 .回答 
文本 平均 长 度 越 低 \ 提 问 标题 情感 倾向 值 越 高 动态 分 
布 时 间 间 隔 越 高 .回答 情感 倾向 值 越 低 、 上 一 阶段 用 户 
角色 非 用 户 进 入 、 粉 丝 数 越 低 、 行 业 和 地 域 不 确定 、 回 


管 评论 数量 越 低 \、 问 题 回答 数量 越 低 、 主 题 丰富 性 越 
低 演化 阶段 越 远 时 ,用 户 则 越 有 可 能 是 积极 型 用 户 。 
此 外 ,积极 型 用 户 除了 清晨 外 ,其 他 任意 时 间 段 都 爱 发 
帖子 ,而 潜水 型 用 户 不 喜欢 在 下 午 、 上 午 及 晚上 发 帖 。 

(3) 对 于 知识 型 用 户 而 言 ,信息 环境 因子 是 其 促 
进 其 形成 的 一 个 重要 因素 , 当 回 答 评 论 数量 越 高 .回答 
平均 文本 长 度 越 长 .问题 回答 数量 越 低 、 粉 丝 数 越 高 、 
言 息 量 越 高 .提问 标题 平均 文本 长 度 越 低 、 动 态 时 间 分 
布 间 隔 越 低 .主题 丰富 性 越 高 .影响 力 越 高 .提问 标题 
情感 倾向 值 越 低 、 性 别 偏向 于 男 、 创 作 等 级 越 高 时 , 则 
越 能 促进 用 户 成 为 知识 型 用 户 。 
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(4) 对 于 需求 型 用 户 而 言 , 当 问 题 回答 数量 越 高 、 
信息 量 越 高 回答 平均 文本 长 度 越 短 .提问 标题 平均 长 
度 越 长 .提问 标题 情感 倾向 值 越 高 .动态 时 间 分 布 间隔 
越 短 回答 评论 数量 越 高 ,上 一 阶段 用 户 角色 为 非 用 户 
进入 ,性 别 偏向 于 未 填写 、 主 题 丰 富 性 越 高 .创作 等 级 
越 低 ,提问 描述 平均 长 度 越 高 绝对 角色 属性 非 回 答 者 
时 , 则 越 能 促进 用 户 成 为 需求 型 用 户 。 

4.5 ”基于 信息 人 因子 和 信息 因子 的 用 户 角色 转变 
分 析 
根据 3.5 章节 ,本文 构建 了 如 表 6 所 示 的 不 同 角 


求 型 转变 为 例 , 当 用 户 从 潜水 型 向 需求 型 变化 的 时 候 ， 
该 用 户 通常 既是 提问 者 又 是 回答 者 且 对 当前 话题 很 有 
兴趣 ,并 会 以 78% 的 概率 在 上 午 提 出 具有 高 信息 量 且 
提问 标题 字数 较 少 的 问题 ,这 条 规则 揭示 了 用 户 角色 
从 潜水 型 向 需求 型 转变 的 信息 人 特征 和 信息 行为 
特征 。 

本 文 根 据 表 6 的 关联 规则 ,总 结 了 如 下 所 示 的 角 
色 转 变 规律 : 

(1) 当 用 户 从 不 同 角 色 向 潜水 型 角色 转变 的 时 
候 , 其 通常 表现 出 回答 文本 长 度 较 低 或 者 文本 内 容 包 


色 转 变 条 件 下 的 关联 规则 。 以 用 户 角色 从 洪水 型 向 需 


含 的 信息 量 较 低 的 现象 , 但 不 同 角色 的 转变 具有 一 定 
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表 6 各 角色 转变 下 信息 人 因子 和 信息 因子 的 关联 规则 


角色 转变 关联 规则 (信息 人 因子 = > 信息 因子 ) 支持 度 置信 度 提升 度 

潜水 一 潜水 低 影响 力 ,粉丝 数 低 于 均值 ,个 人 ,性 别 _ 未 填写 回答 平均 文本 长 度 低 于 均值 0.22 0.80 -1.13 
低 影 响 力 , 关 注 数 低 于 均值 ,其 他 地 域 ,未 认证 ,[ 粉丝 数 ”回答 平均 文本 长 度 低 于 均值 , 低 信息 量 0.22 0.80 1.13 
低 于 均值 ] ,LC( 个 人 1 

潜水 一 积极 低 影 响 力 ,回答 者 ,其 他 地 域 ,LC( 个 人 1 粉丝 数 低 于 均值 | 回答 平均 文本 长 度 低 于 均值 0.23 0.88 1.20 
不 是 优秀 回答 者 ) ] 

潜水 一 知识 粉丝 数 高 于 均值 高 信息 量 , 回答 平均 文本 长 度 高 于 均值 0.24 0.70 -1.21 

洪水 一 需求 ”既是 提问 者 又 是 回答 者 ,很 有 兴趣 , [C( 个 人 | 不 是 优秀 ”动态 时 间 分 布 间隔 低 于 均值 ,提问 标题 平均 长 度 低 于 均 0.27 0.78 2.53 
回答 者 ) ] 值 ,上 午 ,[ 高 信息 量 ] 

积极 一 潜水 低 影 响 力 ,其 他 地 域 ,[C( 个 人 低 信息 量 0.23 0.80 1.15 
秀 回答 者 1 回答 者 ) ] 

积极 一 积极 粉丝 数 低 于 均值 ,高 创作 等 级 , 回 回答 平均 文本 长 度 低 于 均值 0.30 0.82 1.14 


程 极 一 知识 


©O 
害 -x 
©O 


ni 


= 
nm 


需求 一 知识 


的 差异 ,潜水 型 和 积极 型 向 潜水 型 转变 时 ,用 户 往往 具 
有 较 低 的 影响 力 ,前 者 倾向 回答 文本 长 度 较 低 ,后 者 倾 
向 表现 出 低 信息 量 ;知识 型 用 户 向 潜水 型 转变 时 ,其 个 
人 粉丝 数 低 于 均值 ,这 种 转变 可 能 因为 某 种 契机 让 该 
用 户 在 某 一 阶段 成 为 了 知识 型 用 户 ,但 却 无 法 持续 保 | 影响 力 , 后 者 往 和 从 
持 为 知识 型 用 户 ;需求 型 用 户 向 潜水 型 转变 时 ,该 用 户 
往往 具有 较 高 的 创作 等 级 ,在 行为 上 表现 出 了 动态 时 


是 优秀 回答 者 | 个 人 ) ] 


高 创作 等 级 ,高 影 有 
既是 提问 者 又 是 


优秀 回答 者 ) ] 


粉丝 数 低 于 均值 ,个 人 ， 
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高 影响 力 ,回答 者 ,关注 数 低 于 均值 ,个 人 ,未 认证 ,[ 不 是 


优秀 回答 者 ] 


高 创作 等 级 ,粉丝 数 高 


答 者 ,[C( 个 人 1 


”既是 提问 者 又 是 


证 )] 


其 他 地 域 ,未 认证 , [个人] 
管 者 ,粉丝 数 低 于 均值 ,LC( 个 人 | 不 是 


他 行业 ,[C( 不 是 优秀 回 


3 


答 _ 消 极 


提问 标题 平均 长 度 高 于 均值 ,上 


配 


回答 平均 文本 长 度 低 于 均值 


高 信息 量 ,回答 _ 消 极 


巨 


巨 


既是 提问 者 又 是 


一 
[3 


FE,[C( 个 人 1 回答 者 


优秀 回答 者 ) ] 


高 创作 等 级 ， 


[3 


粉丝 数 低 于 均值 ， 


可 答 者 ) ] 


也 地 域 ,[C( 个 人 1 不 是 优秀 


关注 数 低 于 均值 ， 


关注 数 高 于 均值 ， 
关注 数 高 于 均值 ,高 创作 等 级 ,[C( 个 人 | 
证 | 不 是 优秀 回答 者 ) ] 


午 , 下 午 ,[ 高 信息 量 ] 0.38 0.76 1.86 


0.34 0.71 


jk 


.08 


管 _ 消 极 , 回答 平均 文本 长 度 高 于 均值 ,[C( 晚 上 | 高 0.33 0.82 2.45 
息 量 ) ] 


这” 低 信息 量 ,动态 时 间 分 布 间隔 高 


本 长 度 低 于 均值 ] 


于 均值 ,[ 回答 平均 文 0.20 0.73 2.24 


低 信 息 量 ,动态 时 间 分 布 间 隔 高 
本 长 度 低 于 均值 ] 


动态 时 间 分 布 间隔 高 于 均值 


动态 时 间 分 布 间隔 高 于 均值 ,高 信 


史上， 下 午 ,[ 高 信息 量 ] 


于 均值 ,[ 回 答 平 均 文 0.20 0.73 2.24 


史上 ,提问 标题 _ 积 极 ,[C( 提问 标 题 平均 长 度 高 于 均值 0.46 0.80 1.49 
动态 时 间 分 布 间隔 低 于 均值 ! 高 信息 量 ) ] 


回答 行为 往往 具有 滞后 性 且 回 答 的 信息 量 并 不 高 。 

(2) 当 用 户 从 不 同 角 色 向 积极 型 角色 转变 的 时 
候 ,潜水 型 和 积极 型 用 户 向 积极 型 转变 时 ,表现 出 相同 
的 行为 模式 , 即 回答 文本 长 度 较 低 ,但 前 者 往往 具有 低 


E 具 有 和 较 高 的 创作 等 级 ;知识 型 用 户 和 


间 分 布 间隔 高 于 均值 和 低 信息 量 , 说 明 用 户 虽 为 需求 | 高 影响 力 用 户 回 


型 用 户 但 在 吸收 了 一 些 知识 后 会 回答 部 分 问题 ,而 其 


需求 型 用 户 的 转变 则 表现 出 了 完全 不 同 的 信息 人 特征 
和 行为 模式 ,知识 型 用 户 向 积极 型 转变 的 时 候 , 通 常 是 


答 文本 且 文 本 具有 高 信息 量 、 回 答 情 


感 比较 消极 ,而 需求 型 用 户 向 积极 型 转变 的 时 候 , 用 户 
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粉丝 数 较 少 ,在 回答 上 直接 表现 出 较 高 的 回答 滞后 性 。 

(3) 当 用 户 从 不 同 角色 向 知识 型 角色 转变 的 时 
全 ,其 文本 具有 高 信息 量 特征 是 一 个 普遍 的 原则 ,但 积 
极 型 用 户 向 知识 型 用 户 转变 是 个 例外 ,积极 型 向 知识 
型 转变 的 时 候 ,用 户 具有 高 影响 力 和 高 创作 等 级 ,并 会 
有 85% 的 概率 回答 比较 消极 ,回答 文本 的 信息 量 于 其 
而 言 不 太 重要 ;潜水 型 向 知识 型 转变 时 ,用 户 的 粉丝 数 
高 于 均值 ,并 会 有 70% 的 概率 回答 出 较 长 的 文本 内 容 
且 含有 较 高 的 信息 量 ; 当 用 户 维持 知识 型 角色 不 变 的 
时 候 , 用 户 本 身 往往 具有 高 创作 等 级 、 粉 丝 数 高 于 均 
值 .高 影响 力 ,并 会 有 80% 的 概率 回答 出 具有 高 信息 
量 和 消极 的 内 容 ; 当 用 户 从 需求 型 向 知识 型 转变 的 时 
候 , 当 其 关注 数 低 于 均值 的 时 候 , 回 答 虽 滞后 但 含有 较 
高 的 信息 量 , 当 关注 数 高 于 均值 的 时 候 ,偏爱 在 下 午 或 
着 蚁 上 的 时 候 发 布 信息 内 容 ,信息 内 容 也 往往 具有 较 

言 息 量 。 
号 (4) 当 用 户 从 不 同 角 色 向 需求 型 角色 转变 的 时 
候 = 鞭 表现 出 了 不 同 的 信息 发 布 时 间 借 向 和 文本 长 度 
侨 生 以 及 相同 的 高 信息 量 文本 特征 。 潜 水 型 .积极 型 
称 笛 识 型 向 需求 型 转变 时 ,用 户 通常 具有 共同 的 特征 ， 
即 题 是 提问 者 又 是 回答 者 。 潜 水 型 向 需求 型 转变 时 ， 
用 各 在 对 主题 很 有 兴趣 的 情况 下 ,会 在 上 午 提问 或 回 
狼 肯 提问 标题 长 度 低 于 均值 ,回答 时 间 间 隔 也 低 于 均 
值 5 各 极 型 向 需求 型 转变 的 时 候 , 粉丝 数 往往 低 于 均 
俯 笃 有 76% 的 概率 会 在 上 午 和 下 午 提问 或 回答 , 且 
提问 标题 长 度 高 于 均值 ;知识 型 向 需求 型 转变 的 时 候 ， 
用 官 为 高 影响 力 ,倾向 于 在 深夜 或 者 晚上 提问 或 回答 
问题 ; 当 用 户 维持 需求 型 不 变 的 时 候 , 用 户 关注 数 高 于 
均值 且 具 有 高 创作 等 级 和 高 影响 力 ,并 且 会 有 80% 的 
概率 喜欢 在 晚上 提问 ,提问 标题 比较 积极 ,提问 标题 的 
平均 长 度 也 高 于 均值 。 


晤 | 


4.6 基于 主题 的 用 户 角色 转变 分 析 

如 表 7 所 示 ,为 各 角色 转变 条 件 下 用 户 所 关注 的 
主题 关联 规则 , 因 篇 幅 限 制 , 仅 展示 提升 度 大 于 2.5 的 
主题 关联 规则 。 基 于 主题 的 用 户 角色 转变 分 析 , 以 积 
极 型 用 户 向 需求 型 用 户 转 变 为 例 , 可 以 理解 为 用 户 从 
积极 型 向 需求 型 转变 时 ,用 户 最 有 可 能 同时 关注 群体 
免疫 和 美国 死亡 人 数 持续 上 涨 两 个 话题 ,关注 群体 免 
疫 的 用 户 有 100% 的 概率 也 会 关注 美国 死亡 人 数 持续 
上 涨 的 话题 。 在 所 有 角色 转变 条 件 下 ,用户 所 关注 的 
主题 基本 围绕 在 美国 引发 的 政治 战争 .美国 医疗 系统 
前 溃 、 群 体 免疫 .比尔 盖 茨 个 人 情况 .美国 死亡 人 数 持 
续 上 涨 \, 美 国 感染 .确认 及 死亡 人 数 等 主题 。 在 不 同 角 
色 转 变 条 件 下 ,用 户 最 有 可 能 关注 的 话题 也 有 区 别 。 
如 潜水 型 用 户 向 需求 型 用 户 转变 的 前 提 条 件 下 ,有 
38% 的 用 户 同时 关注 了 美国 医疗 系统 前 省 西班牙 流 
感 和 美国 流感 暴发 [C( 群 体 免疫 1 美国 死亡 人 数 持续 
上 涨 ) ] ,如 果 用 户主 要 关注 “美国 医疗 系统 骨 溃 ”, 在 
该 转变 条 件 下 ,用户 有 100% 的 可 能 性 会 对 西班牙 流 
感 和 美国 流感 暴发 [LC( 群 体 免疫 ! 美 国 死亡 人 数 持续 
上 涨 ) ] 感 兴趣 ;而 需求 型 向 需求 型 转变 的 条 件 下 ,用 户 
则 会 同时 关注 冠状 病毒 抗体 研究 和 新 冠 疫苗 进入 临床 
试验 或 者 关注 “散装 江苏 ”支援 各 地 并 祈祷 人 民 平 安 ， 
希望 渡 过 难关 见 阳光 等 ,其 他 规则 类 似 。 通 过 对 不 同 
角色 转变 条 件 下 用 户 所 关注 的 主题 进行 分 析 , 可 以 了 
解 突 发 公共 卫生 事件 下 不 同 用 户 转变 时 的 关注 内 容 ， 
对 于 平台 及 时 推送 相关 问答 具有 一 定 意义 ,比如 当 用 
户 维持 潜水 型 角色 不 变 的 时 候 , 可 以 观测 潜水 型 用 户 
向 积极 型 转变 的 关注 内 容 并 通过 计算 潜水 型 和 洪水 型 
用 户 的 相似 性 ,推送 类 似 的 问答 ,刺激 潜水 型 用 户 向 积 
极 型 转变 。 


加 


表 7 各 角色 转变 条 件 下 主题 关联 规则 ( 部 分 ) 


角色 转变 关联 规则 (话题 = > 话题 ) 支持 度 ”置信 和 度 ”提升 度 
潜水 一 积极 美国 死亡 人 数 持 续 上 涨 ,美国 引发 政治 战争 ,美国 经 济 ”以 反讽 的 语气 为 美国 加 油 ,比尔 羡 芯 个 人 情况 ,新 西 兰 。 0.38 1 2.56 
停摆 防 控 策略 
潜水 一 需求 美国 医疗 系统 骨 溃 和 班 牙 流感 和 美国 流感 暴发 ,[C( 群 体 免疫 | 美国 死亡 。” 0.38 1 2.60 
人 数 持续 上 涨 ) ] 
积极 一 积极 美国 引发 政治 战争 ,新 西 兰 防 控 策略 处 反讽 的 语气 为 美国 加 油 ,比尔 盖 茨 个 人 情况 0.38 1 2.59 
积极 一 需求 群体 免疫 美国 死亡 人 数 持续 上 涨 0.35 1 2. 62 
知识 一 知识 美国 死亡 人 数 持续 上 涨 ,美国 经 济 停摆 义 反讽 的 语气 为 美国 加 铀 ,比尔 盖 茨 个 人 情况 ,美国 引 0.38 1 2.54 
发 政治 战争 
需求 一 积极 美国 感染 .确诊 及 死亡 人 数 | 美 国医 疗 系统 崩 演 ,美国 死亡 人 数 持续 上 涨 0.38 1 2.60 
需求 一 需求 散装 江苏 支援 各 地 | 祈祷 人 民 平 安 , 希 望 渡 过 难关 见 阳 光 0.27 1 3.71 
冠状 病毒 抗体 研究 1 新 冠 疫 苗 进入 临床 试验 0.27 1 3.71 
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5 结论 与 展望 


本 文 以 知 乎 平台 中 新 型 冠状 病毒 话题 为 例 ,首先 
从 参与 程度 和 价值 维度 ,将 问答 平台 不 同 生命 周期 阶 


平台 可 以 依据 用 户 角 色 形 成 的 主要 因素 ,针对 性 提升 
重要 类 型 用 户 的 占 比 ,如 研究 显示 良好 的 信息 环境 和 
主题 内 容 , 即 热烈 的 讨论 氛围 和 丰富 的 主题 是 需求 型 
用 户 和 知识 型 用 户 形成 的 关键 。@@ 对 于 政府 而 言 ,本 


段 用 户 角色 识别 、 划 分 为 潜水 型 用 户 、 积 极 型 用 户 、 需 
求 型 用 户 和 知识 型 用 户 ,然后 构建 基于 信息 生态 理论 
的 信息 人 信息 和 信息 环境 的 社区 用 户 角色 形成 影响 
因素 和 最 优 解 Catboost 多 分 类 絮 模 型 ,并 使 用 SHAP 模 
型 确定 不 同 角色 形成 的 关键 影响 要 素 ,最 后 基于 关联 
规则 探讨 用 户 角色 转变 的 行为 特点 和 主题 特点 。 

本 文 的 主要 结论 如 下 :GD 从 全 部 转换 阶段 来 看 ,用 
户 倾向 于 维持 角色 不 变 且 积极 型 维持 不 变 的 概率 最 
高 ,为 49% ,其 他 角色 主要 向 积极 型 和 潜水 型 用 户 转 


SEE 


变 3> 从 不 同 转变 阶段 来 看 ,以 用 户 角 色 转 换 概率 最 大 
4 名 水 型 - 潜水 型 用 户 ( 即 角色 维持 不 变 ) 为 例 ,其 不 
司 轻 变 阶段 的 特征 变化 程度 具有 显著 差异 ,为 维持 角 
他 很 变 ,通常 要 求 疫情 发 展 后 期 粉丝 数 变化 程度 为 上 
-- 蓉 机 的 1.95 倍 。 回 影响 不 同 用 户 角色 的 关键 因素 
3 致 ,但 信息 量 始 终 是 重要 特征 ,信息 量 越 低 ,反而 
越 针 说 明 该 用 户 是 洪水 型 用 户 。 信 息 因子 的 时 间 属性 
是 组 极 型 用 户 的 显著 特征 ,说 明 积极 型 用 户 在 投入 社 
欧 讽 时 候 不 在 意 时 间 段 。 信 息 环境 对 需求 型 和 知识 型 
用 访 形 成 的 影响 较 大 ,其 次 是 信息 因子 中 的 文本 属性 
出 感 属性 。@ 用 户 向 不 同 角色 转变 时 ,具有 不 同 的 
转 懂 规律 和 表现 特征 ,如 用 户 从 积极 型 向 需求 型 转变 
时 纷 丝 数 往往 低 于 均值 ,并 以 76% 的 概率 在 上 午 和 
下 芒 提 问 或 回答 , 且 提 问 标题 长 度 高 于 均值 ,用 户 也 最 
有 可 能 同时 关注 群体 免疫 和 美国 死亡 人 数 持续 上 涨 两 
个 话题 。 

本 研究 的 创新 与 贡献 在 于 理论 价值 方面 :提供 
了 突 发 传染 病情 境 下 用 户 细 分 模型 和 研究 方法 ;@ 从 
信息 生态 视角 构建 用 户 角色 形成 的 影响 因素 ,并 揭示 
影响 不 同 角 色 形成 的 关键 要 素 ,拓展 信息 生态 理论 在 
社会 化 问答 平台 中 的 应 用 ;@ 基 于 关联 规则 探究 不 同 
用 户 角色 转变 ,行为 模式 和 主题 特点 ,是 对 用 户 角色 研 
究 的 进一步 深化 。 

研究 结果 对 实践 也 有 一 定 的 启示 :对 于 问答 社 
区 ,一 方面 ,平台 可 以 根据 用 户 角色 行为 和 主题 特点 提 
供 个 性 化 服务 以 促进 用 户 向 其 他 类 型 角色 的 良性 转 
变 ,如 向 潜水 型 用 户 推荐 与 之 具有 相似 主题 的 知识 型 
用 户 ,可 以 增加 用 户 向 积极 型 转变 的 概率 ; 另 一 方面 ， 


研究 所 揭示 Covid-19 疫情 期 间 用 户 角 色 在 社区 问答 平 
台 的 行为 和 主题 特点 ,有 助 于 奥 情 管理 部 门 了 解 用 户 
转变 的 机 制 ,尤其 是 不 同 角色 类 型 转向 需求 型 用 户 的 
行为 和 主题 特点 ,通过 及 时 满足 信息 需求 来 避免 与 情 
恶化 。 
本 研究 还 存在 一 定 的 局 限 性 :中 本 文 所 研究 的 用 
户 角色 转变 是 涵盖 了 所 有 生命 周期 的 角色 转变 情况 ， 
未 具体 细 分 和 区 分 不 同 生命 周期 阶段 的 用 户 角 色 转 变 
寺 点 ;@) 受 限于 知 乎 平台 数据 特征 的 获取 ,在 衡量 问题 
回答 质量 时 使 用 指标 较为 单一 , 因 信息 疫情 的 存在 可 
能 导致 研究 存在 一 定 的 误差 ;@ 本 文 仅 针对 Covid-19 
话题 下 知 平平 台 的 用 户 角 色 识 别 、 形 成 和 转变 进行 研 
究 , 研 究 结 论 对 于 其 他 事件 情境 的 适用 性 和 推广 性 还 
有 待 探索 ,后 续 还 将 继续 研究 其 他 传染 病情 境 下 更 多 
问答 平台 上 的 用 户 角 色 形 成 与 转变 规律 。 男 外 基于 本 
文 的 影响 因素 可 以 挖掘 出 更 多 的 关联 规则 ,但 本 文 仅 
探讨 行为 和 主题 ,未 对 其 他 关联 因素 进行 分 析 。 因 此 ， 
在 后 续 人 研究 中 ,可 以 进一步 对 以 上 问题 进行 探索 。 
致谢 :感谢 图 书 情报 国家 级 实验 教学 示范 中 心 为 本 研 
究 提 供 的 实验 支持 ! 
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User Role Formation and Transformation of Socialized Q&A Platforms in the Context of Infectious 
Disease Outbreaks: Taking the Zhihu Platform as an Example 
Chen Miaomiao An Lu …” 
! School of Information Management, Wuhan University, Wuhan 430072 
“Center for Studies of Information Resources, Wuhan University, Wuhan 430072 

Abstract: | Purpose/ Significance | To explore the user role classification methods, key factors of role forma- 
tion, transformation characteristics and differences of the Q&A platforms in the context of infectious disease out- 
breaks. | Method/ Process| A total of 702 ,927 data related to Covid-19 epidemic were collected from Q&A plat- 
forms. The user roles were analyzed from the dimensions of participation and value. The influencing factors of com- 
munity user role formation were constructed based on the information user factor, information factor and information 
environment factor. The key factors affecting the formation of different roles were analyzed by combining the multi- 
classification model and the SHapley Additive exPlanations (SHAP) model. The FP-growth association rule algorithm 
ew. used to mine behavior patterns and topic characteristics during the transformation of different roles. | Result/ 
nclusion | The results show that users tend to keep their roles unchanged, and the transformation direction is 
Jiaainly towards active or diving roles. The amount of information is the key factor for the formation of different roles. 


ere are significant differences in the extent of change in user role transformation characteristics in different transfor- 
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otion stages and user role transformation behaviors in all transformation stages. 
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